#DeepSeek AI
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
允許梁文鋒再「偉大一次」
一個技術理想主義者,如何被中國AI的“工程現實”重新定義。過去幾年,梁文鋒幾乎拒絕了所有網際網路時代熟悉的劇本。別人融資,他拒絕;別人搶入口,他開源;別人卷參數,他卷效率;別人把AI當成生意,他卻一直在談AGI。DeepSeek因此看起來更像一家“研究機構”,而非創業公司。直到2026年春天,事情開始變化。GPT-5.5發佈不到24小時,DeepSeek-V4預覽版上線。發佈後不到五天,接連三次降價,昨天,DeepSeek“識圖模式”又開始灰度測試,補上了多模態這塊缺失最久的拼圖。DeepSeek多模態團隊研究員陳小康在X上的發帖與此同時,那個長期拒絕騰訊、阿里和頂級VC的梁文鋒,第一次主動打開了融資的大門。一邊把價格打到骨折,一邊卻伸手拿錢;一邊叫苦算力吃緊,一邊承諾還要降價,梁文鋒這位把AGI掛在嘴邊的人,是向商業現實“繳械投降”,還是在醞釀一場更大的風暴?01. “反常識”的72小時4月24日,GPT-5.5發佈不到二十四小時後,DeepSeek-V4預覽版悄然上線。沒有發佈會,就像這家公司的一貫作風:事情做完了,放出來,你們自己看。V4-Pro發佈後,最先引發討論的不是能力,而是價格。相比前代V3.2,這一次V4-Pro的定價看起來明顯更高。很多人第一反應是DeepSeek終於開始走向“正常商業化”了。但很快,事情又出現反轉。不到一天,官網低調更新價格,直接打到2.5折。隨後又一次更新:快取命中價格永久降至發佈價的十分之一。研究員甚至在社交媒體上直接打出“AGI for Everyone”的標籤,強調這是永久價格,而非促銷活動。更耐人尋味的,是官網價格頁面裡那行不起眼的小字:“受限於高端算力,目前Pro服務吞吐有限,預計下半年昇騰950超節點批次上市後,Pro價格會大幅下調。”這意味著DeepSeek公開承諾未來還會繼續降價,且這次價格下調繫結的,不再只是DeepSeek自己的技術最佳化,還有中國國產高端算力的量產節奏。與此同時,DeepSeek還啟動了成立以來的首次外部融資,目標估值從100億美元迅速抬升至200億美元乃至更高,騰訊、阿里相繼被傳洽談入局。降價、又融資,看起來很矛盾,但回看DeepSeek的發展歷程,會發現到它的野心從不只是“做模型”。過去兩年,全球大模型行業的默認邏輯一直是模型越強,成本越高,能力越強,價格越貴。OpenAI、Anthropic都建立在這套邏輯之上。但DeepSeek-V4要做的不是“賣更貴的智能”,而是不斷降低“智能”的邊際成本,實現AGI平權。這種對“邊際成本”的執念,從DeepSeek的前身幻方量化就已經開始了。2021年,當大多數科技公司還在討論AI概念時,幻方已經囤積了上萬張A100,自建了“螢火”算力叢集。在高度競爭的市場裡,成本結構本身就是護城河,這是梁文鋒在幻方時便想明白的,這套理念也被完整地繼承到了DeepSeek。DeepSeek V4-Pro約5.22美元,快取命中後進一步降至3.6美元左右。同等輸入輸出量下,GPT-5.5的API成本約35美元,Claude Opus 4.7約30美元。V4-Flash更激進,成本不到競爭對手的2%。這已經不是簡單的價格差,而是“量級差”了。“超低價”背後是模型架構、推理系統與算力調度共同最佳化後的結果。V4-Pro支援100萬token上下文,在部分長文字場景下,單token推理所需算力相比前代明顯下降,KV Cache佔用也大幅減少。過去行業處理長上下文,很多時候依賴的是持續堆視訊記憶體、堆頻寬;DeepSeek嘗試通過架構最佳化減少一部分無效計算與資源浪費。當然,效率上的突破並不等於全面超越。DeepSeek內部的真實評測顯示,V4目前已成為公司員工日常使用的Agentic Coding模型,使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6的非思考模式,但與Opus 4.6的思考模式仍存在一定差距。開源和低價建立了影響力,可“一分錢一分貨”的道理,在頂級閉源模型身上依然成立。某種程度上,V4真正改變的,其實不是模型能力,而是行業對“智能應該值多少錢”的認知。極客肖恩·多納霍在Facebook發帖稱,自己把部分程式設計工具切換到DeepSeek之後,月帳單下降了90%以上,效果卻並未明顯下降。科技博主 Simon Willison 每次 DeepSeek 發佈新版本,他都會用同一句提示詞 生成一張鵜鶘騎自行車的 SVG。這次也一樣,測試之後他稱DeepSeek-V4-Pro 是“大型前沿模型中最便宜的一款”。上:DeepSeek-V4-Flash 版 下:DeepSeek-V4-Pro 版這幾位開發者或許只是個例,但他們背後折射出的趨勢值得關注:當價格差拉到“量級差”,開發者重新分配算力預算的動機也會增強。而當越來越多應用、Agent和開發工具開始基於同一種模型生態建構時,真正形成護城河的,未必只是模型能力本身,還包括開發者習慣、呼叫路徑以及整個生態的成本慣性。Deepseek想用極致的性價比,成為那個被開發者“持續依賴”的選項。02. DeepSeek 的“二度奇襲”2025年1月,Deepseek R1發佈,引發全球震動。Deepseek應用很快登頂蘋果中國和美國地區App Store免費榜首,Nvidia單日市值蒸發約6000億美元,美國風投家馬克·安德森稱之為AI領域的"斯普特尼克時刻"。一個杭州的量化團隊,用560萬美元的訓練成本,做出了對標OpenAI頂級模型的效果,並且開源了。彼時,世界對梁文鋒的理解,是"用更少的錢做更好的模型"。很多人後來把R1理解成“受限條件下的逆襲”,但其實並不完全精準。早在行業真正意識到大模型價值之前,幻方就已經開始大規模採購算力、建設叢集。後來外界看到的“低成本奇蹟”,更像一次長期積累後的集中爆發。梁文鋒真正厲害的地方,是他比大多數人更早意識到未來AI競爭的核心,不只是模型能力,還有算力效率。但隨著DeepSeek從技術黑馬變成核心玩家,新的問題也開始浮現。過去的DeepSeek,很像一個隱秘的研究組織,幻方量化在背後輸血,梁文鋒不缺錢,研究員埋頭做模型。Deepseek在X上的簽名都是“用好奇心揭開通用人工智慧的奧秘,用長遠的眼光回答根本問題”,學術味兒十足。但AI行業不會長期尊重“隱士”,尤其當你手裡真的有“真經”的時候。從2025年底到2026年,多位DeepSeek核心成員相繼離開。V3架構關鍵開發者羅福莉去了小米,第一代大語言模型核心作者王炳宣去了騰訊,R1核心研究員郭達雅被字節跳動以傳聞中“近億元的總包”帶走,多模態方向核心研究員阮翀轉投元戎啟行。過去,大模型公司的目標相對統一:訓練更強的基礎模型,到了2026年,行業開始迅速分化,Agent、多模態、端側AI、機器人、自動駕駛,陸續變成新的戰場。這時候,一個研究員如果想做Agent,去字節會面對真實月活場景;想讓AI理解物理世界,去自動駕駛公司顯然更有吸引力。DeepSeek太專注把模型本身做到極致,這種組織文化,能夠吸引最純粹的研究者,卻很難長期承載所有方向。它最強的地方,在這一刻成為它最大的桎梏。主流AI公司搶的是有經驗的工程師,梁文鋒卻更青睞頂尖高校的年輕博士生,因為在他看來這些人"渴望證明自己","可以完全不帶功利地投入去做一件事"。初期DeepSeek的確可以用技術理想主義吸引天才,但很難長期用理想主義支付機會成本,尤其在同行已經開始形成市場估值的時候。近兩年,OpenAI、Anthropic不斷刷新融資數字,投後估值高達8400億、3800億美元,國內的智譜、MiniMax相繼掛牌港交所,市值一度突破4000億和3800億港元。大廠給的是有行權價、有IPO預期、有內部回購機制的期權,而不融資的DeepSeek,沒有“度量衡”。在競爭白熱化的AI人才市場裡,沒有市場化估值錨點的期權,等於一張無法兌現的期票。梁文鋒或許也是意識到了這一點,所以開放了融資。但這依然是一個極具“梁式色彩”的融資方案。此次融資目標募集金額不低於3億美元,計畫以不低於200億美元的估值進行。與此同時,工商資訊顯示,梁文鋒在增資後直接持股佔比由1%提升至34%,其作為實際控制人的最終受益股份仍為84.29%,表決權比例仍為100%。他用大約3%的股權,換來了市場對這家公司的價值認證。董事會的控制權,一票未讓。對比同行,這個數字更加意味深長。OpenAI 2026年完成的最新一輪融資,募集1220億美元,投後估值8520億美元;Anthropic 2026年2月完成300億美元G輪融資,投後估值3800億美元。3億美元,放在今天的AI賽道里,甚至比不上同行一輪融資的零頭。梁文鋒選擇用這個體量融資,就是為給員工手中的期權,建立起相對清晰的估值錨點和兌現預期,穩住人才,同時讓公司不被短期增長所裹挾。03. 允許梁文鋒再“偉大一次”R1證明了中國AI可以做出世界級模型,V4之後,梁文鋒試圖證明中國AI可以建立起自己的“底座標準”,那怕這條路,很難。有個細節,V4發佈後,華為昇騰生態官方帳號,專門為DeepSeek-V4做了一場直播。晶片廠商親自下場給一款模型站台,並不常見。它釋放的訊號超出產品本身:DeepSeek第一次公開地,把自己的模型路線與國產算力的量產節奏綁在一起。過去幾年,中國AI行業有個默認順序,模型可以開源,演算法可以追趕,但輝達的生態護城河最難撼動。CUDA是輝達二十年攢下的工具鏈、算子庫、開發框架和開發者習慣,全球AI幾乎默認運行在這套底座之上。要脫離它,可不是“換塊顯示卡”那麼簡單。尤其在兆級參數模型上,難度會被進一步放大。參數越大,對視訊記憶體頻寬、通訊效率、叢集穩定性的要求就越高。模型團隊不僅需要針對國產晶片重寫和最佳化核心算子,甚至還需要自研確定性算子,保證長時間訓練過程中的精確可復現。更現實的問題是在萬卡叢集裡,硬體故障不是意外,而是必然。於是,訓練框架必須同時具備完整的檢測、容錯與恢復能力。如果效率跑不上去,成本就只是空談。V4延期超過十五個月,遷移代價是原因之一。目前V4的細粒度專家平行方案已經同時在輝達GPU和華為昇騰NPU兩個平台上完成驗證,在通用推理場景中實現了1.5到1.96倍的加速。推理層面跑通了,但開放原始碼主體仍基於CUDA,底層工具鏈尚未完全轉移,原因在於昇騰950超節點尚未批次上市,現有產能撐不起V4-Pro的大規模服務。不過DeepSeek已經把下一輪降價,公開寫進了國產算力的量產時間表裡。昇騰950PR單卡算力達到輝達H20的2.87倍,是目前國內唯一支援FP4低精度推理的產品,HBM容量112GB。規格是真實的,只等工業化落地。梁文鋒當年從幻方量化的GPU叢集起家,把算力當作研究的彈藥。如今他讓中國模型和中國晶片的命運,在商業上深度捆綁,並在所有人面前承諾,這是梁文鋒在晶片封鎖的現實下,做出的務實選擇。但這條路有個前提:模型能力必須始終足夠硬。V4把1M上下文做成標配、對Agent能力做專項最佳化、推出三檔推理強度,這些不是給評測榜單準備的,是給真實企業工作流準備的。只有先在真實生產場景裡證明自己不可替代,Deepseek的“底座”敘事才能成立。未來,梁文鋒和Deepseek要走的路還很長,國產算力的工業化時間表能否如期兌現,模型能力能否在閉源頂級模型高速迭代的壓力下保持競爭力,開發者生態能否形成足夠的黏性……它們像棋盤上尚未閉合的“氣眼”,每一個都關乎生死,可這些問題,現在都還沒有答案。Deepseek爆火後,被問及"商業公司做無限投入的研究性探索是否瘋狂"時說,梁文鋒曾說過一句話:"我們終其一生所渴望的,就是找到自己,然後成為自己。"這句話在R1發佈後的語境裡讀,是一個創始人的理想宣言。如今再讀,份量更重了些。AI競爭的上半場,他用技術效率、定價顛覆和算力豪賭,贏得了繼續下棋的資格,成就了Deepseek的"偉大"。下半場,允許梁文鋒再“偉大一次”,不是因為他已經攻下了某個技術的山頭,而是他正在為一場漫長的遠征搭建底座。不誘於譽,不恐於誹,率道而行,端然正己。這是荀子的精神,也是Deepseek的信條。 (奇點研究社)
DeepSeek給AI裝了根賽博手指,於是它能看見了
五一假期前一天,DeepSeek突然扔出來一份視覺多模態技術報告。點開之前,我心裡大概是有個預期的,無非就是具體能看到多遠、看得多清楚。畢竟過去一年,多模態模型基本都在往這個方向卷。OpenAI講thinking with images,讓模型在推理過程中裁剪、放大、旋轉圖片;Gemini、Claude也都在想辦法讓模型處理更高解析度、更複雜的視覺輸入。大家的共同假設是,只要模型看得更細,視覺推理自然就會更強。但DeepSeek這份報告看下來,你會發現,他們完全走上了另一條路。DeepSeek沒有把重點放在“讓模型看到更多像素”上,他們把注意力放在了一個更底層的問題上。就算模型已經看清楚了,但是它在推理過程中,你怎麼能保證模型和你指的是同一個東西?其實這是多模態推理裡最容易被忽略的死穴。人類看圖時,可以用手指去標記對象。比如“這個人是誰誰誰”、“那個人是誰誰誰”。但模型那知道你說的這個是那個?模型只能用語言說“左邊那個”“上面那個”“這條線”。一旦畫面複雜起來,語言指代就會漂移,推理也會跟著崩。於是DeepSeek就說了,那就給模型一根“手指”不就完了?它把點和邊界框變成模型思考時的基本單位,讓模型能夠一邊用這根賽博手指指著對象,一邊進行推理。01. 從連續視覺到離散符號DeepSeek在這份技術報告裡,提出了一個很有意思的問題。他們認為,多模態模型真正難的地方,不是看見圖像,而是在連續推理過程中穩定地指向同一個視覺對象。就比如你跟你的朋友說“菜市場裡,張老太太的那個攤位賣的菜最新鮮”。但是菜市場裡老頭老太太多了去了,那個是張老太太?但如果你直接用手指著說“就是那個”,你朋友就會馬上明白。DeepSeek將這個問題命名為“引用鴻溝”(Reference Gap)。過去一年,幾乎所有前沿多模態模型都在解決“感知鴻溝”(Perception Gap)這個問題。假如說有一張照片放在你面前,如果照片太模糊、解析度太低,你可能看不清楚裡面的小字或者遠處的細節。AI也一樣,如果輸入的影像品質不夠、處理方式不對,它就會“看不清”,這就是感知鴻溝。GPT、Claude、Gemini這些模型不斷提高解析度,引入高解析度裁剪、動態分塊、多尺度處理,目的就是讓模型能看到更多細節。這個方向當然有價值,但DeepSeek在報告裡指出,就算模型看得再清楚,在複雜的空間推理任務上,仍然會出現邏輯崩潰。問題出在自然語言本身。照片裡有十幾隻狗,你說“左邊那隻狗”,那模型就沒辦法理解你說的具體是那只。還有更絕的,如果你讓模型數一下照片裡狗的數量,那麼模型在推理過程中很容易就搞不清楚自己已經數過那些、還有那些沒數。報告中還提到了迷宮導航這樣極端的情況,純語言根本無法精準描述不規則形狀的路徑和複雜的拓撲關係。語言作為一種指代工具,在連續的視覺空間裡天生就是模糊的。它擅長抽象概念和因果關係,但在空間定位和拓撲關係上,語言的表達能力存在根本性的侷限。可DeepSeek本身就是個通用的語言模型,那應該怎樣解決呢?於是就有了文章開頭提到的這根“手指”。他們提出的核心概念是“視覺基元”(Visual Primitives),具體來說就是把邊界框(bounding boxes)和點(points)這兩種電腦視覺裡最基礎的空間標記,提升為“思維的最小單位”。以前的多模態模型雖然也能畫框標註物體,但只是在最後給你看個結果,證明“我找到了”。就像考試時,你只交答案,不寫解題過程。也有一些研究讓AI在思考過程中畫框,但目的只是為了“看得更準”,框框只是個輔助工具。就好比你做數學題時用草稿紙,草稿紙只是幫你算得更清楚,不是解題思路的一部分。DeepSeek要做的完全不同。他們把這些空間標記直接嵌入到模型的推理過程中,讓它們成為推理的有機組成部分。模型在思考的時候,不只是用語言描述“我看到了一隻狗”,還同時輸出“我看到了一隻狗,它在這裡:[[x1,y1,x2,y2]]”。這個機制被DeepSeek稱為“邊推理邊指向”(point while it reasons)。模型的每一步思考都錨定在圖像的具體坐標上。技術報告裡就給了這樣一個例子:模型從起點出發,一路探索、回溯、再嘗試,最後輸出了一串完整的坐標路徑,每個坐標都對應迷宮裡走過的一個點。這樣一來,模型就不會在推理過程中“迷路”。它不會搞不清楚自己在說什麼、指什麼。每個視覺對象都有了明確的空間錨點,推理過程變得可追蹤、可驗證。這條技術路線和OpenAI的方向形成了有趣的對比。OpenAI在o3和o4-mini的官方介紹裡明確提到了“thinking with images”的概念,即模型可以把圖像納入推理鏈,並通過裁剪、放大、旋轉等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分,模型可以在推理過程中生成新的圖像、修改圖像、對圖像進行操作。OpenAI的路線強調的是通用能力,視覺、程式碼、搜尋、檔案、工具呼叫一起協作。模型擁有一個強大的“視覺工作台”,可以靈活地處理各種視覺任務。DeepSeek的路線則更“符號化”一點。它讓坐標進入思維鏈。模型在推理文字裡顯式寫出邊界框和點的坐標,把視覺對象變成推理時可復用的錨點。這就導致,OpenAI的視覺推理髮生在內部,使用者只能看到最終答案和必要解釋,中間的視覺處理過程是黑箱。DeepSeek則故意把中間視覺錨點顯式化,讓推理過程完全透明。DeepSeek這樣做,好處是推理過程更容易被訓練、檢查和打分。這也讓它更容易設計格式、質量和任務級獎勵。尤其在迷宮、路徑追蹤這類任務中,可以對路徑合法性、軌跡覆蓋度等給出更細的反饋。模型不只是學會輸出正確答案,更是學會了用視覺基元進行推理的方法。02. 效率才是核心DeepSeek這份報告裡有一個很容易被忽略但極其重要的細節,他們的模型在處理圖像時,用的token數量遠遠少於其他前沿模型。報告裡有一張對比圖,展示了不同模型處理一張800×800解析度圖像時消耗的token數量。Gemini-3-Flash約1100個,Claude-Sonnet-4.6約870個,GPT-5.4約740個,Qwen3-VL約660個,DeepSeek約361個,並在KV快取裡只保留約90個條目。這個差距不是一點點。DeepSeek用的token數量只有Gemini的3分之1,KV快取條目更是只有10分之1左右。這種極致的效率是怎麼實現的?DeepSeek用了一個叫“壓縮稀疏注意力”(Compressed Sparse Attention, CSA)的機制。你可以這樣理解,假如說你給朋友看一張全家福,你不會說“從左數第237個像素開始有一塊紅色區域……”,你會直接說“左邊是我媽,右邊是我爸”。DeepSeek-ViT先把圖像壓成更少的視覺token,CSA再把這些視覺token在KV快取中的表示進一步壓縮。這個機制在DeepSeek-V4-Flash模型上就使用過,現在被應用到了視覺多模態之中。具體的壓縮流程是這樣的。一張756×756的圖像,包含571536個像素。這些像素首先經過ViT處理,以14×14的patch size切分,生成2916個patch token。然後進行3×3的空間壓縮,把每9個相鄰的token沿著通道維度壓縮成1個,變成324個視覺token。這324個token進入大語言模型進行預填充。最後,CSA機制會把這些視覺token在KV快取裡再壓縮4倍,最終只保留81個條目。從571536個像素到81個KV快取條目,整個壓縮比達到了7056倍。一般AI大廠都是在用暴力方法去堆計算資源,而DeepSeek則是在資訊理論層面去做取捨,只留下最直觀易懂的資訊。其最直接的結果,就是推理速度變快了許多。圖像token數量直接影響模型的推理延遲。在自回歸生成過程中,每生成一個新token,模型都需要對之前所有token的KV快取進行注意力計算。如果圖像佔用了1000個token,那麼每次生成都要對這1000個token做注意力。如果只佔用90個,計算量就大幅減少。對於需要即時響應的應用場景,比如機器人視覺、自動駕駛、即時視訊分析,推理速度的提升起到了決定性作用。然後它記憶體佔用得也少。KV快取是大模型推理的記憶體瓶頸。特別是在處理長上下文或批次推理的時候,KV快取會佔用大量視訊記憶體。DeepSeek把視覺token的KV快取壓縮到90個條目,意味著可以在同樣的硬體上處理更多圖像,或者處理更長的多輪對話。這對於實際部署非常重要。很多公司的多模態模型在實驗室裡表現很好,但一到實際部署就遇到成本問題。每張圖片消耗的token越多,推理成本就越高,可支援的並行使用者就越少。DeepSeek的效率優勢在規模化部署時會被放大。同時也變相提高了模型的上下文容量。如果一張圖片要佔用1000個token,那麼在一個128k的上下文窗口裡,只能放100多張圖片。如果只佔用300個token,就可以放400多張。這對於需要處理多圖對話、長視訊分析、大量文件理解的場景至關重要。DeepSeek的模型可以在一個對話裡處理更多圖像,可以對比分析幾十張甚至上百張圖片,可以追蹤視訊裡的長期變化。最關鍵的是訓練成本。雖然報告主要講推理效率,但這種壓縮機制在訓練階段同樣有效。更少的視覺token意味著更小的計算圖,更快的訓練速度,更低的硬體要求。DeepSeek一直以“用更少資源做出更好效果”著稱。從R1的強化學習訓練,到V4的MoE架構,再到現在的視覺多模態,這種效率優先的哲學貫穿始終。但這裡有一個關鍵問題。壓縮會不會損失資訊?DeepSeek並沒有否認壓縮會帶來資訊損失。它的主張是,在這組空間推理和計數任務上,壓縮後的表徵仍然足夠有效。每一步壓縮都在保留對推理最重要的資訊,丟棄冗餘和噪聲。其實前面提到的DeepSeek的視覺基元機制,它本身也是一種資訊壓縮。一個邊界框用4個數字就能精確定位一個物體,一個點用2個數字就能標記一個位置。這些離散符號攜帶的資訊密度遠高於原始像素。從實驗結果看,這種壓縮沒有損害性能,反而在某些任務上帶來了提升。這說明對於很多視覺推理任務,瓶頸不在於看得不夠清楚,而在於沒有找到合適的表徵方式。這種效率優勢還證明了多模態智能不一定需要更大的模型、更多的算力、更高的成本。從DeepSeek時刻誕生至今,這家公司一直有一條暗線,“真正的智能不在於算力,而在於對問題本質的理解”。當你真正理解了視覺推理需要什麼,你就不需要那麼多token。當你找到了合適的表徵方式,你就不需要那麼大的模型。從這個角度看,DeepSeek的極致效率不是目的,而是副產品。真正的目的是找到視覺推理的正確範式。效率只是證明了這個範式是對的。03. 未竟之事DeepSeek在報告的侷限性部分,坦誠地列出了當前方法存在的幾個問題。這些問題不是技術細節上的小瑕疵,而是指向了視覺推理的下一個階段。第一個問題是觸發詞依賴。報告裡明確說,當前的“用視覺基元思考”能力需要顯式的觸發詞(explicit trigger words)才能啟動。也就是說,模型還不能自然、自主地決定“什麼時候該畫框、打點”。它意味著模型還沒有真正學會判斷什麼時候需要使用視覺基元,什麼時候用語言就夠了。理想的情況是,模型應該能根據任務的性質自主決策。但當使用者問“數一數圖裡有幾隻狗”的時候,模型應該自動切換到視覺基元模式,用邊界框來輔助計數。從技術上說,這需要在模型裡建立一個元認知層。這個元認知層可以評估當前任務的複雜度,判斷純語言推理是否足夠,決定是否需要呼叫視覺基元。DeepSeek目前還沒有實現這個元認知層,但他們已經明確了方向。未來的版本可能會讓模型學會自主決定推理策略,而不是依賴外部觸發。第二個問題是解析度限制。報告提到,受輸入解析度限制,模型在細粒度場景下的表現還不夠好,輸出的視覺基元有時不夠精確。這個問題和DeepSeek的效率優先策略有關。為了控制token數量,他們限制了視覺token的範圍在81到384之間。對於超出這個範圍的圖像,會進行縮放處理。這種設計在大部分場景下是合理的,但在一些需要極高精度的任務上就會遇到瓶頸。比如醫療影像分析需要識別微小的病灶,工業質檢需要發現細微的瑕疵,這些場景對解析度的要求很高。DeepSeek在報告裡提到,這個問題可以通過整合現有的高解析度方法來解決。也就是說,他們的視覺基元框架和傳統的高解析度裁剪方法不是對立的,而是互補的。我覺得DeepSeek可以出個混合方案。具體就是對於大部分常規任務,使用壓縮的視覺表徵和視覺基元推理,保持高效率。對於需要細粒度分析的局部區域,動態呼叫高解析度裁剪,提取更詳細的視覺資訊。這樣既保持了整體效率,又滿足了局部精度需求。這種混合方案的關鍵是讓模型學會判斷那些區域需要高解析度處理。於是這就又回到了剛才元認知的問題上。第三個問題是跨場景泛化。報告提到,用點作為視覺基元來解決複雜拓撲推理問題仍然很難,模型的跨場景泛化能力有限。這個問題在迷宮導航和路徑追蹤任務上表現得比較明顯。雖然DeepSeek在自己建構的測試集上達到了66.9%和56.7%的精準率,超過了其他模型,但這個數字本身還不夠。更重要的是,這些任務都是在合成資料上訓練和測試的。迷宮是用演算法生成的,路徑追蹤的曲線也是程序化繪製的。當模型遇到真實世界裡的拓撲推理問題時,比如在真實地圖上規劃路徑,在複雜管線圖裡追蹤連接關係,表現可能會下降。DeepSeek的方法是通過大規模、高多樣性的資料來提升泛化能力。他們爬取了97984個資料來源,經過嚴格過濾後保留了31701個,最終得到超過4000萬個樣本。在迷宮和路徑追蹤任務上,他們也設計了多種拓撲結構、視覺風格、難度等級,試圖覆蓋儘可能多的變化。然而資料多樣性只是泛化能力的一部分。模型是否真正理解了拓撲推理的本質?還是說它只是記住了訓練資料裡的模式而已?另外,DeepSeek的視覺基元是一套新的表徵系統,需要專門的資料格式、訓練流程、評估方法。這和現有的多模態生態不完全相容。大部分多模態資料集和評測基準都是基於傳統的“圖像+文字”範式設計的,沒有考慮視覺基元。如果要在這些基準上評測DeepSeek的模型,要麼需要關閉視覺基元功能,要麼需要重新設計評測方法。其他研究者如果想復現或改進這個工作,需要重新建構整個資料和訓練流程,門檻比較高。DeepSeek能在報告中談及這些問題,說明他們對自己的工作有清醒的認識。這可能比給出完美答案更有價值。因為真正推動社會進步的,往往不是答案,而是問題。 (字母AI)
DeepSeek剛解決了AI視覺最後一塊拼圖:極低成本+精準視覺定位,AI接管電腦已無死角
DeepSeek多模態模式相信有很多人已經灰度到了,對應的技術報告也來了,可以說DeepSeek 解決了可靠且廉價的電腦代理的最後一個難題DeepSeek放出了一篇新論文,解決的是多模態大模型裡一個被長期忽視的根本性問題。不是看不清圖,而是說不清位置。論文名叫 Thinking with Visual Primitives(基於視覺原語的思考),來自DeepSeek、北大和清華的聯合團隊。paper:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf問題出在那裡現有的多模態大模型,推理過程基本被鎖死在文字空間裡。模型用Chain-of-Thought(CoT)一步步推導,聽起來很合理,但有個致命缺陷:語言本身是模糊的,它沒辦法精確指向圖像裡某個具體位置。比如你問模型:圖裡左邊那個小杯子旁邊的那個東西是什麼顏色?模型的語言推理鏈條很快就會亂掉,它"想著"一個物體,實際上卻已經搞混了另一個。這就是論文裡定義的Reference Gap(指代鴻溝)。和它對應的是另一個已經被廣泛研究的問題:Perception Gap(感知鴻溝),即模型看不清高解析度圖像裡的細節。前者已有不少工作在做,比如高解析度裁切、動態分塊。但後者一直沒有被正面解決。論文的核心判斷是:就算感知做到完美,只要指代還靠自然語言,模型在密集計數、複雜空間推理、拓撲導航這類任務上就會持續出錯,產生連鎖幻覺。DeepSeek解法:讓模型一邊想一邊指DeepSeek的方案叫 Thinking with Visual Primitives,思路:把空間標記,也就是點(point)和邊界框(bounding box),升格為"最小思維單元",直接插進模型的推理鏈條裡。人類數一堆密集的東西時,會用手指逐個點過去。這個框架做的事情和這個一樣:模型每推理一步,就可以在圖上"戳一下",把抽象的語言思維錨定到圖像的物理坐標上。兩種視覺原語各有分工:邊界框適合捕捉具體物體的位置和大小;點則更適合抽象的視覺指代,比如軌跡追蹤或拓撲推理中的路徑節點。架構:極致的token壓縮這套框架建立在一個對token效率做到極致的架構上。語言骨幹是 DeepSeek-V4-Flash,總參數284B,推理時啟動參數13B。視覺編碼用的是 DeepSeek-ViT,一個從頭訓練的ViT,支援任意解析度輸入。它先用14×14的patch大小把圖像切成patch token,然後在ViT輸出端用3×3空間壓縮,把每9個相鄰patch token合併成1個。進入LLM之後,還有一層 Compressed Sparse Attention(CSA) 機制,對視覺token的KV cache再壓縮4倍。整體下來的壓縮比是7056倍。舉個具體的數字:一張756×756的圖,原始像素展開是571,536個,經過patch embedding變成2,916個ViT token,3×3壓縮後變成324個,進入LLM後KV cache裡只剩81個視覺條目。如圖所示,處理一張800×800的圖,本文模型消耗約361個token(KV cache裡只有約90條),而Claude-Sonnet-4.6需要約870個,Gemini-3-Flash需要約1100個,GPT-5.4需要約740個。token用量不到競品的三分之一,但在7個基準測試上的平均分是77.2%,高於Gemini-3-Flash的76.5%和GPT-5.4的71.1%。訓練:四個階段,從專才到通才訓練流程分為預訓練和後訓練兩大階段預訓練目標是讓模型學會輸出視覺原語。訓練資料來自大規模網路爬取。僅在Huggingface上,團隊就用官方API篩選了帶有Object Detection或Grounding標籤的資料集,按熱度排名初篩,排除所有驗證集和測試集,再用LLM agent解析README檔案,統一格式。最終爬取了97,984個box grounding相關資料來源。原始資料質量參差不齊,團隊設計了兩步過濾流程:第一步是語義審查,用MLLM自動識別並丟棄三類問題資料:無意義的機器碼和亂碼標籤、無法泛化的私有實體(比如MyRoommate這類私人稱呼)、歧義縮寫和主觀評價(比如工業檢測裡的OK/NG)。這一步從97,984個源過濾到43,141個。第二步是視覺幾何質量審查,排除三類標註缺陷:嚴重漏標(漏標率超50%)、嚴重截斷或偏移(切掉了物體關鍵視覺特徵)、無意義的超大框(覆蓋超過90%圖像面積,通常是圖像分類資料被強行轉成檢測資料)。過濾後剩31,701個資料來源。最終通過類別均衡採樣,得到超過4000萬個高品質樣本。格式上,box grounding任務的prompt範本類似於:Locate TARGET in this image and report its bounding box coordinates,響應格式使用特殊token包裹坐標,坐標歸一化到0到999的離散整數。point任務同理,但響應不要求輸出物體名稱,以便將點標記擴展到軌跡等更抽象的概念。後訓練:冷啟動資料後訓練需要少量但高精度的冷啟動資料。團隊圍繞四類任務建構這些資料:1. 計數(Counting)分粗粒度和細粒度兩類,如圖粗粒度計數:聚合多個密集檢測資料集,過濾掉物體過密、框太小、召回率低的樣本,用MLLM生成推理內容,分三步走:意圖分析、批次定位(同時找出所有候選物體)、基於視覺原語統計求和。細粒度計數:因為公開資料集太少,團隊基於GQA資料集建構了專屬流程,用MLLM生成帶有屬性約束的計數問題,再合成包含視覺原語的推理鏈。同時建構了ground truth為零的負樣本,增強模型抗幻覺能力。冷啟動計數資料共約10,000條。2. 空間推理和通用視覺問答如圖所示,資料來源包括自然場景(基於GQA)和合成場景(基於CLEVR工具鏈,支援可控場景生成和多跳推理)。還建構了負樣本,當查詢的物體或關係不存在時,模型學會基於視覺證據給出忠實的拒絕回答。共約9,000條冷啟動樣本。3. 迷宮導航如圖所示,這是為瞭解決純語言CoT無法精準描述不規則形狀軌跡的問題。迷宮用DFS、Prim和Kruskal演算法生成,確保路徑不能被輕易猜到。設計了三種拓撲結構:矩形網格、同心圓形迷宮、六邊形蜂巢迷宮。同時設計了無解迷宮,方法是先生成有解迷宮,找到解路徑後,在路徑中段故意放置幾堵牆,使迷宮看似可解但實際需要完整搜尋才能確認無解。難度通過網格大小控制:簡單迷宮只需串聯少量本地連通性檢查,最難的噩夢級迷宮需要持續追蹤數百步而不丟失已探索區域資訊。推理內容記錄了基於DFS的探索過程,每一步都用point坐標錨定到圖像上。共生成460,000條冷啟動樣本。4. 路徑追蹤如圖所示,任務是在一堆相互纏繞的線條中,沿指定曲線追蹤到它的終點。圖像由多條貝塞爾曲線生成,每條連接一個標記起點和終點。關鍵挑戰在於交叉點消歧:在兩條線交叉的地方,模型必須判斷那個分支是目標曲線的延續。設計了純色統一風格模式,所有線條顏色和粗細相同,強迫模型只靠曲率連續性判斷,而不是靠顏色捷徑。推理內容用一系列坐標序列表示追蹤過程,在曲率大或交叉密集的區域坐標點更密,在平直段坐標點更稀疏,模仿人類在視覺複雜區域放慢注意力的行為。共生成125,000條冷啟動樣本。後訓練流程:專才訓練再合併後訓練採用專才訓練後合併的策略,分四個子階段:專項SFT:訓練資料由70%通用多模態和純文字資料、30%視覺原語專項資料構成。box(thinking with grounding)和point(thinking with pointing)分開訓練,避免在專項資料量較少時產生模式衝突,分別得到專才模型FTwG和FTwP。專項RL:對FTwG和FTwP分別獨立進行強化學習,使用GRPO演算法。設計了三類獎勵模型同時監督:格式RM(規則型,驗證視覺原語格式是否正確,同時檢查是否存在重複框)、質量RM(基於LLM的生成式獎勵模型,檢查回答冗餘、思維與回答是否一致、是否存在自相矛盾、獎勵駭客行為等)、精準性RM(針對不同任務定製)。計數任務的精準性獎勵採用平滑指數衰減函數,對接近正確的預測輕懲,對偏差大的預測重懲,而非簡單的二值精確匹配。迷宮導航的獎勵分解為探索進展、探索完整性、穿牆懲罰、最終路徑有效性、答案正確性五個分項,確保獎勵訊號密集且資訊豐富。路徑追蹤的獎勵包含雙向軌跡評估:正向懲罰偏離真實路徑的預測點,反向懲罰模型跳過的路徑段,兩者缺一不可。RL結束後,將資料池按難度分為三級:所有N次rollout全對(Easy)、部分對(Normal)、全錯(Hard),只選Normal級資料用於GRPO訓練。訓練完成得到專才模型ETwG和ETwP。統一RFT:用ETwG和ETwP對資料池做rollout,生成RFT資料,保留所有Normal級樣本,隨機子採樣5%的Easy級樣本防止災難性遺忘,重新從預訓練基礎模型初始化訓練一個統一SFT模型F。On-Policy Distillation(OPD):RFT模型F相比專才模型ETwG/ETwP仍有性能差距。用線上蒸餾彌合這一差距,讓學生模型基於自己生成的軌跡學習教師模型(ETwG和ETwP)的輸出分佈,使用全詞表logit蒸餾,損失函數為反向KL散度的加權求和。實驗結果模型在多個任務上達到前沿水平:計數任務:Pixmo-Count上以89.2%的精確匹配率超過Gemini-3-Flash的88.2%,在DS_Finegrained_Counting上以88.7%超過Qwen3-VL-235B-A22B的87.2%。空間推理和通用VQA:在SpatialMQA(69.4% vs 67.0%)、MIHBench(85.3% vs 83.5%)、DS_Spatial_Reasoning(98.7% vs 97.2%)上均排名第一。拓撲推理:這是本文最突出的貢獻之一。所有前沿模型在DS_Maze_Navigation上的得分都在50%上下浮動,而本文模型達到66.9%。DS_Path_Tracing上,本文模型56.7%,排名第二的GPT-5.4隻有46.5%,Claude-Sonnet-4.6是30.6%。論文指出,這說明多模態大模型在拓撲推理上仍有大量提升空間。定性結果方面,如圖所示,在使用邊界框作為視覺原語的任務上,模型展示了粗粒度計數、細粒度計數、反常識視覺問答(判斷天平兩側那個更重)、世界知識關聯(識別金門大橋後判斷附近是否有NBA球隊)、行動建議(根據咖啡機和原料給出拿鐵製作步驟)等能力。此外,儘管後訓練的視覺原語資料不包含任何中文語料,模型仍能用中文進行思考和回答,這來自基礎模型繼承的多語言能力。如圖在使用點作為視覺原語的任務上,模型能對迷宮生成逐步DFS探索軌跡,並對路徑追蹤任務生成完整的坐標序列追蹤過程。侷限性論文也列出了三個當前的侷限:第一,受輸入解析度限制,模型在極細粒度場景下的視覺原語輸出精度有時不夠高。論文認為可以通過和現有解決感知鴻溝的方法結合來彌補。第二,當前的視覺原語思維能力依賴顯式的觸發詞才能啟動,未來目標是讓模型根據具體情境自主判斷是否呼叫這一機制。第三,用點作為視覺原語來解決複雜拓撲推理問題仍然困難,模型的跨場景泛化能力有限,這是重要的未來研究方向。訓練框架使用的是High-flyer的HAI-LLM(https://www.high-flyer.cn/en/blog/hai-llm),一個基於PyTorch的輕量級分佈式訓練框架。預訓練階段使用64K序列長度和FP8精度,後訓練階段序列長度擴展到256K,在Unified RFT和OPD階段使用FP4(MXFP4)量化。 (AI寒武紀)
SpaceX 馬斯克薪酬方案:殖民火星 + 太空資料中心考核目標,條件估值達$7.5兆/Anthropic 最新融資估值超 $9000 億
還在為錯過AI熱點而焦慮? AI Daily Insights,你的AI世界超級助手,掌握全球 AI 最新動態:SpaceX 董事會批准馬斯克天價薪酬方案:殖民火星 + 太空資料中心為考核目標,觸發條件估值達$7.5兆/Anthropic 最新融資估值超 $9000 億,較上輪拒絕的 $8000 億報價抬升逾 12%/S/Musk 自稱當年支援 OpenAI 是"fool",指控 Altman 和 Brockman 操控其捐款數千萬美元Alphabet Q1 營收 $1099 億超預期,Google Cloud 單季收入首破 $200 億,全年 CapEx 上調至 $1900 億如果你在關注雲端運算和 AI 基礎設施的競爭走勢,這條值得優先看。它最直接的變化在於:Google Cloud 的增速不再只是"趕上"AWS 和 Azure,而是開始以自己的節奏重估這場仗的格局。Alphabet 於 4 月 29 日盤後發佈 2026 年 Q1 財報,總營收 $1099 億,同比增長 22%,超出分析師預期的 $1072 億。Google Cloud 單季營收達 $200.3 億,同比增長 63%,遠超華爾街預期的 $184 億,Google Cloud 合同積壓額已翻倍至超 $4600 億。淨利潤 $625.8 億,同比大幅跳升。公司同步上調全年資本支出區間至 億至1900 億,較一月份初始指引的上限進一步抬升,並明確表示 2027 年還將"顯著增加"。Sundar Pichai 在電話會上稱 AI 正在"點亮業務的每一個角落",Gemini Enterprise 付費月活環比增長 40%,第一方模型每分鐘處理 token 量超 160 億,季度環比增長 60%。盤後 GOOG 股價漲逾 6%。對 AI 基礎設施投資者和雲服務競爭觀察者來說,這份財報最值得注意的是"超預期幅度"和"CapEx 加碼"同時出現。Cloud 營收連續兩個季度遠超預期,說明企業 AI 採購正在加速落地,而非停留在 POC 階段。與 Microsoft Azure 在同期增速相對放緩形成對比,Google Cloud 的 63% 增速和積壓訂單翻倍,意味著 Alphabet 已在企業 AI 工作負載爭奪中獲得明確份額。CapEx 上調至 $1900 億上限,是一個前瞻訊號:Alphabet 判斷算力需求在 2027 年前還會加劇,而非觸頂。接下來值得盯的變數是:AWS 和 Azure 本周財報能否給出同等力度的 Cloud 增速,以及 Alphabet 在多模態和 AI Agent 方向的產品商業化能否讓 Cloud 合同加速兌現。Anthropic 最新融資估值超 億,較上輪拒絕的8000 億報價抬升逾 12%對關注大模型商業化和一級市場估值錨的從業者來說,這條值得注意。它改變的現實變數是:AI 頭部非上市公司的估值上限正在被持續突破,Anthropic 的定價將直接影響整個行業的融資參照系。據彭博社 4 月 28 日援引知情人士報導,Anthropic 已開始與投資者商討新一輪融資,目標估值超過 $9000 億。CNBC 同日確認這一數字,並援引知情人士稱目前尚無 term sheet 簽署。值得注意的是,此前 Anthropic 曾拒絕了多個以 $8000 億+估值為條件的投資提案,而本輪是公司主動開始權衡。Anthropic 在 2025 年已累計完成數輪大額融資,Amazon 是其最大戰略投資方,承諾出資額超 $40 億。公司旗下 Claude 系列模型目前在企業端市場佔有率持續提升,Claude Code 作為 AI 程式設計工具的用量也在快速增長。從一級市場角度看,$9000 億估值意味著 Anthropic 的隱含市值已超過大多數傳統科技公司,僅次於 OpenAI 當前的隱含估值。與上輪主動拒絕 $8000 億報價相比,Anthropic 此次態度轉向”主動權衡”,說明公司在算力投入和商業化規模之間的資金需求已到新節點。對於正在跟進企業 AI 採購的從業者來說,Anthropic 能否在這輪融資中引入新的戰略方股東、以及 Google 和 Amazon 的持股比例是否變化,將直接影響 Claude 生態的平台方向。中國暫停發放 L4 自動駕駛牌照,百度 Apollo Go 3 月武漢百余輛車集體停擺觸發監管介入對自動駕駛商業化路徑有判斷需求的從業者來說,這條不能忽略。它改變的現實變數是:中國自動駕駛的監管節奏出現明確收緊訊號,擴張計畫面臨不確定性窗口。彭博社 4 月 28 日報導,中國已暫停向自動駕駛企業發放新的 L4 級牌照,消息由多名知情人士確認,路透社隨後跟進。直接導火線是 2026 年 3 月 31 日,百度 Apollo Go 旗下逾 100 輛無人駕駛計程車在武漢市區集體停擺,導致乘客被困、交通中斷。中國警方初步認定原因為系統故障,但百度迄今未公開說明具體原因,其 Apollo Go 武漢業務目前仍處於暫停狀態。此次暫停措施實質上禁止了現有企業擴大車隊規模、進入新城市或開啟新的測試項目,恢復時間尚不明確。The Verge 指出,這已是中國監管機構至少第二次因百度相關事故暫停審批。對自動駕駛賽道來說,這次暫停與 2024 年底的那輪叫停形成"前車之鑑"效應——上次暫停數月後於 2025 年初才重啟。這意味著小馬智行、滴滴自動駕駛等同樣持有或申請中的玩家,現階段城市擴張節奏將直接受阻。更大的問題在於:中國自動駕駛的監管框架能否在事故處置機制上形成更清晰規則,還是依然以"叫停-重啟"循環應對商業化壓力。接下來需要觀察的是百度的事故說明何時公佈,以及監管部門是否會借此窗口重新設定 L4 商業化的安全准入門檻。SoftBank 計畫在美成立 AI 機器人公司 Roze 並最早 2026 年上市,目標估值 $1000 億對關注 AI 資本運作和頭部玩家佈局的讀者來說,這條值得一看。SoftBank 此舉的邏輯不只是"又造一家公司",而是在為 AI 基礎設施投資尋找流動性出口。據《金融時報》4 月 29 日援引知情人士報導,軟銀集團計畫在美國成立一家專注於 AI 機器人和資料中心業務的獨立公司,內部名稱為 Roze,最早可能於 2026 年完成美股上市。軟銀高層將目標估值定在約 $1000 億。報導未披露 Roze 的具體業務構成,但其方向與軟銀現有的資料中心建設投資和機器人產業佈局高度重合。Bloomberg 同日對此進行了跟進確認。軟銀此前已宣佈在美國投資 $1000 億用於 AI 和科技基礎設施,Roze 被外界視為這一承諾的重要落地載體。對投資者來說,$1000 億估值目標意味著軟銀正在將 AI 基礎設施資產打包成獨立上市標的,而非繼續通過願景基金間接持有。這與目前市場對 AI 算力和機器人賽道的溢價預期高度契合。問題在於,Roze 當前是否具備足夠的獨立營收支撐這一估值,以及軟銀能否在市場窗口合適時完成這一操作,是否會重演 WeWork 式的高估值折戟,值得跟蹤。Anthropic 悄然將 Claude Code 開發者日均 token 成本翻倍,從 調整至13如果你在用 Claude Code 或正在評估 AI 程式設計工具的採購成本,這條直接影響你的判斷。它改變的現實變數是:AI 程式設計工具的實際使用成本正在系統性上移,"訂閱制掩蓋 token 消耗"的模式開始暴露結構性問題。據 Business Insider 和 Dataconomy 4 月 27–28 日報導,Anthropic 已悄然更新 Claude Code 產品頁面上的成本估算資料:此前標註的開發者平均每活躍日 token 消耗約 $6,現已調整為約 $13,漲幅超過 100%。同時,企業版的月成本估算區間也升至 250/開發者,90% 使用者每日上限則從 提升至30。這是 Anthropic 在數周內第二次引發定價層面爭議——上周,其定價頁面調整曾引發大量使用者不滿,官方隨後稱為針對 2% 新使用者的測試。Anthropic 增長負責人公開承認,現有訂閱計畫"並不適應當前的使用強度"。對正在規模化使用 Claude Code 的開發團隊來說,這次調整意味著實際成本核算需要重新建模。與 GitHub Copilot 等固定訂閱定價相比,Claude Code 的 token 計費模式在高頻使用場景下成本彈性更大。Anthropic 目前處於用量快速增長與成本壓力並存的階段,能否推出更適配高頻使用者的封頂定價方案,將是接下來產品競爭力的關鍵變數。DeepSeek 上線視覺功能,V4 模型新增 Vision 模式打通多模態能力缺口比起"DeepSeek 又更新了",更值得看的是:視覺能力的補全意味著 DeepSeek 在企業應用場景的覆蓋面正式從"純文字推理"跨入多模態競爭,這是一個能直接影響選型決策的變化。DeepSeek 近日正式推出視覺功能,其更新後的產品介面新增 Vision 模式,與此前的 Deep Thinking(R1)、Smart Search 並列。據 TechNode 和 TechCrunch 報導,V4 版本在架構層面支援圖文多模態輸入,填補了 DeepSeek 產品線長期缺失的視覺理解能力。此前,DeepSeek V4 Preview 已於 4 月發佈,參數規模達 1.6T 總量/49B 啟動參數,並將 100 萬 token長上下文作為默認配置。視覺模式的加入,被業內人士認為是 DeepSeek 進入與 GPT-4V、Claude Vision 正面競爭階段的訊號。對於正在評估模型選型的產品和開發者來說,DeepSeek 視覺功能的補全意味著純成本優勢之外,它的能力邊界已接近主流閉源模型。與 OpenAI 和 Anthropic 相比,DeepSeek 的競爭優勢在於開源可部署 + 極低推理成本,視覺能力的加入讓這一組合在更多企業場景中具備可替代性。接下來需要觀察的是 Vision 模式的實際理解精度與速度,以及在複雜圖文任務上的基準表現是否能穩定交付。華為昇騰 950 需求激增,字節、騰訊、阿里已就 DeepSeek V4 適配展開晶片訂單談判對關注中國 AI 供應鏈和算力格局的從業者來說,這條直接改變的現實變數是:華為昇騰正在從"備選方案"變成中國頭部網際網路公司的主動採購目標。據路透社和 Dim Sum Daily 4 月 28–29 日援引多名知情人士報導,DeepSeek V4 正式適配華為昇騰 950 架構後,字節跳動、騰訊、阿里巴巴等中國主要網際網路公司已主動與華為接洽,商談新一批晶片訂單,雲端運算和 GPU 租賃服務商也在同步爭搶配額。昇騰 950PR 作為昇騰系列最新型號,性能已被業內認為超過輝達 H20,但仍弱於 H200;由於 H200 對華出貨受阻,華為打開了明確的商業窗口。DeepSeek V4 參數規模達 1.6T,長上下文默認 100 萬 token,全面適配昇騰 950 架構,這一適配驗證大幅提升了市場信心。對 AI 算力供應鏈來說,字節/騰訊/阿里同時向華為下單是一個明確的結構性訊號:輝達在中國高端推理晶片市場的主導地位正在被系統性替代,而非邊緣性補充。昇騰 950 的量產節奏和產能爬坡速度將是制約這一趨勢的關鍵變數——如果供給跟不上需求,價格溢價和排隊周期將同步出現。接下來值得關注的是華為是否會公佈具體產能數字,以及 DeepSeek V4 的昇騰最佳化是否會推動其他國內模型廠商跟進適配。Musk 自稱當年支援 OpenAI 是"fool",指控 Altman 和 Brockman 操控其捐款數千萬美元這條的核心不是罵戰本身,而是 Musk 持續通過法律和輿論施壓 OpenAI,可能牽連 OpenAI 商業化處理程序與公司結構轉型節奏。據《華爾街日報》Angel Au-Yeung 報導,埃隆·馬斯克公開表示,他當年支援 OpenAI 是"一個傻瓜的錯誤",並指控 Sam Altman 和 Greg Brockman 操控他捐出了數千萬美元。這是 Musk 與 OpenAI 法律糾紛持續升級的最新節點。此前,Musk 已就 OpenAI 的結構性轉型(從非營利向營利化)提起訴訟,要求阻止這一轉變。Musk 旗下的 xAI 與 OpenAI 形成直接競爭,其言論被部分觀察者認為兼具法律策略和輿論競爭雙重目的。對 OpenAI 正在推進的營利化結構轉型來說,Musk 持續的公開施壓和法律動作構成一個實際摩擦變數——不直接阻止商業化,但會增加監管關注度和投資者對治理風險的顧慮。接下來值得跟蹤的是 OpenAI 結構轉型的法律進展,以及這場輿論戰是否會對其正在進行的融資談判產生實質性影響。SpaceX 董事會批准馬斯克天價薪酬方案:殖民火星 + 太空資料中心為考核目標,觸發條件估值達 $7.5 兆比起"馬斯克又拿到天價薪酬",更值得看的是:這份薪酬方案把 SpaceX 的商業目標與火星殖民、太空算力正式繫結,為投資者提供了一張罕見的長期戰略路線圖。據報導,SpaceX 董事會已批准馬斯克的薪酬方案,核心條款包括:若公司市值達 $7.5 兆且在火星建立至少 100 萬常住人口的永久定居點,馬斯克將獲授 2 億股超級投票權限制性股票;另一條款規定,若在太空建成 100 太瓦算力資料中心並達到另一估值目標,馬斯克將再獲 6040 萬股限制性股票。所有條款均以馬斯克持續在職為前提,無明確完成時限。SpaceX 目前仍為非上市公司,計畫於 2026 年 IPO,屆時估值預計達 $1.75 兆。這份薪酬方案的現實意義在於兩點:一是通過極高的觸發門檻($7.5 兆市值),在法律層面降低短期兌現機率,同時為馬斯克鎖定長期掌控權提供製度保障;二是"太空資料中心"條款明確表明 SpaceX 將算力基礎設施列為核心戰略方向,與 Starlink 的收入增長曲線形成呼應。接下來需要觀察的是 IPO 具體時間窗口,以及馬斯克同時掌舵 SpaceX、Tesla、xAI 的精力分配問題是否會在 IPO 路演中被機構投資者正式提出質疑。OpenAI GPT Image2 在權威評測中奪得全球文生圖榜首,超越Google Nano Banana2對關注 AI 視覺生成競爭格局的產品和設計類從業者來說,這條值得留意。它改變的現實變數是:文生圖的頭部競爭格局在 OpenAI 發力後出現了新的排位。OpenAI 旗下 GPT Image2 於 4 月 21 日正式上線,據相關權威評測報告,該模型在畫質、指令遵循度、圖文一致性以及漢字生成等維度全面領先,超越Google Nano Banana2 獲得全球文生圖評測第一。評測指出,GPT Image2 在複雜場景還原和漢字技術難題上表現突出,但在空間關係理解和深層知識推理方面仍有最佳化空間。對正在選型文生圖工具的產品團隊來說,這一評測結果將直接影響短期採購決策。但需要注意的是,評測榜單名次本身存在方法論差異,真實業務場景中的表現仍需獨立驗證。接下來值得關注的是 Midjourney、Stability AI 等垂直玩家是否會以專項能力為切口進行反制,以及Google是否會快速跟進版本迭代。SpaceX Starlink 草案 IPO 檔案披露:使用者 3 年漲至 890 萬,營收從 億增至114 億,但 ARPU 下滑 18%對關注 AI 基礎設施和衛星網際網路商業化的投資觀察者來說,這組數字值得細讀。使用者高增長與 ARPU 下滑同時出現,背後是 Starlink 的規模化與定價壓力之間的結構性張力。據 The Information 披露的 SpaceX IPO 草案檔案,Starlink 個人使用者數量從 2023 年的 230 萬增長至 2025 年的 890 萬,兩年增長約 287%;營收從 $39 億擴大至 $114 億,絕對規模可觀。但與此同時,每使用者平均收入(ARPU)在這一周期內下滑 18%,說明 Starlink 在擴張過程中對價格做出了明顯讓步,以拉動使用者規模。SpaceX 整體 IPO 計畫預計以馬斯克生日為節點啟動,目標估值或達 $1.75 兆。來源:The Information。ARPU 下滑 18% 是這份資料中最值得深究的變數。它既可能是主動策略(以低價打開新興市場),也可能是競爭壓力使然(Amazon Kuiper 等對手開始進入)。對潛在 IPO 投資者來說,Starlink 盈利質量的可持續性將是路演中被機構重點追問的議題。接下來值得關注的是 Starlink 企業端和政府端合同是否能彌補消費端 ARPU 的結構性下行,以及 IPO 檔案正式提交後定價區間如何設定。AI 初創公司湧入曼哈頓,現金充足推動商業地產繁榮,但多數辦公室空桌比人多這條的看點不是地產,而是 AI 初創公司"先租後填"的規模化預期如何在資本過剩期轉化為實體資產配置行為。據《華爾街日報》Isabelle Bousquette 報導,大量現金充裕的 AI 初創公司正在推動曼哈頓商業地產市場出現一輪新需求高峰,許多公司簽下遠超當前員工規模的租約,大部分辦公桌暫時空置。這一現象與 AI 公司的融資結構高度相關:在估值和資金充裕的窗口期,搶佔優質辦公空間被視為規模化準備的一部分,而非即時業務需求。來源:Wall Street Journal。這一模式在過去十年科技泡沫中出現過不止一次。對 AI 初創公司來說,辦公空間的超前預定既是信心訊號,也是現金消耗的隱性加速器。如果融資節奏放緩或商業化兌現不達預期,過剩辦公面積將成為營運壓力的放大器。接下來值得關注的是曼哈頓 AI 集聚區的租約結構和到期分佈,以及 AI 行業整體裁員或組織調整是否會觸發新一輪轉租潮。 (AI Daily Insights)
中國AI“雙子星”殺出重圍,西方封鎖者的如意算盤徹底碎了!
中國AI圈近期傳出一個令人振奮的消息,兩家領軍級AI創業公司DeepSeek(深度求索)和Kimi(月之暗面),在底層技術的突破上打出了一套漂亮的“組合拳”,在一周內相繼發佈各自兆參數等級的開源大模型。老胡看到,有人把這比作中國AI界的“兩彈一星”時刻,當“人工智慧+”上升為國家戰略,兩家技術路徑各異卻節奏同頻的公司,確實正在共同揭示科技社會的一次深刻演進。兩家公司展現了一種難得的開源協作精神:Kimi模型參考了DeepSeek架構,而DeepSeek新模型則採用了Kimi大規模驗證的關鍵最佳化器技術,直接挑戰了西方壟斷十年的技術標準。這種“你中有我,我中有你”的超越零和博弈的協作關係,在高度競爭的科技圈並不多見。▲權威機構Artificial Analysis公佈的全球大模型“智能指數”老胡想說的是,這不僅僅是兩家公司的勝利。一方面,我們要看到,西方對華的技術封鎖緊鑼密鼓,試圖在算力和底層演算法上把中國困在“石器時代”;但另一方面,中國人的韌性和創新能力,往往也在壓力最大的時候爆發。這兩家公司把兆量級的開源模型做到了逼近美國頂尖閉源模型的效果,而且價格只有人家的不到十分之一,這說明什麼?說明中國AI正在形成一種基於成本優勢和技術迭代的“非對稱作戰”能力。Deepseek和Kimi的創始人梁文鋒和楊植麟,時隔一年先後參加了總理座談會。這釋放出的訊號非常明確:國家不僅支援創新,更支援那種能解決“卡脖子”問題的實戰派。他們不是在實驗室裡空談,而是實實在在地與中國國產晶片“共生”。DeepSeek研究在華為昇騰晶片上做推理,Kimi搞混合式推理架構,讓中國國產晶片和西方晶片能“同台競技”。這種現實主義的突圍路徑,正是中國科技產業最需要的底氣。同時,我們離全球最頂級的生態位還有一段路要走,美國人的先發優勢依然客觀存在。但老胡相信,只要不亂陣腳,堅持開源共享,堅持底層自研,那些試圖通過封鎖來遲滯中國進步的企圖,終將在歷史的洪流面前撞得頭破血流。輝達的黃仁勳在GTC演講中,用這兩個中國模型來給自家下一代晶片“驗貨”,美國的Cursor、日本的樂天都在套殼使用中國模型。那些希望技術封鎖者的“如意算盤”,恐怕要落空了。老胡最後想說,中國太大了,這種充滿活力的民間創新與國家意志的同頻共振,是任何力量都難以遏制的。讓我們給這些年輕人一點時間,給中國AI一點耐心。中國人的“AI核彈”已經造出來了,接下來的戲,一定會越唱越精彩。 (胡錫進觀察)
黃仁勳的感慨正在成真
英國《經濟學人》近日刊文指出,中國正在全球AI人才競逐中逐步擴大對西方國家的領先優勢。輿論在予以關注的同時,紛紛解析中國的吸引力何在。多年來,發達國家對開發中國家的人才虹吸近乎碾壓。這些年,隨著中國綜合國力躍升與科研環境持續最佳化,全球人才流動逐漸轉向,“最大規模海歸潮”悄然出現。同時,一些西方國家出於政治私利,動輒對全球人才關上大門,客觀上也推動了人才洋流“一路向東”。近五年來,不僅海外留學人員回國就業人數逐年增加,不少領軍人物也選擇來華任職任教。更重要的是,中國已默默搭好“如何留人”的生態系統。人工智慧競爭,本質是算力、資料與演算法的“鐵三角”之爭。在晶片受限的相對被動局面下,中國AI經歷了從“大力出奇蹟”到“精益求精”的轉變,探索出一條“軟體定義算力、演算法驅動效能、人工智慧+賦能場景”的創新路徑。完善的工程體系、海量的優質資料、充沛的算力資源、豐富的應用場景,為天下英才提供了廣闊舞台。而對夢想上路時的成本焦慮與風險挑戰,相關政策給予穩穩支援,各類人才計畫為早期AI創新力量搭建了專業化、全周期的賦能平台。中國在AI人才競爭中佔有優勢,靠的不僅是攬才、留才,更是強大的本土造血能力。中國高度重視教育,擁有全球規模最大的教育體系,各級教育普及程度達到或超過中高收入國家平均水平。資料顯示,中國人才資源總量達2.2億人,其中高技能人才超7200萬人,科學家與工程師規模接近2000萬人;每年培養STEM專業畢業生超過500萬人,全球領先。這都為中國造就了領先全球的AI人才底座。以嶄露頭角的DeepSeek團隊為例,這支平均年齡僅20多歲的生力軍,核心成員均為本土培養,充分證明中國高等教育體系與科研環境已具備培養、吸引並成就世界級AI人才的深厚土壤。當然,人才之戰不是百米衝刺,而是一場漫長的馬拉松。前段時間,國務院印發《關於深入實施“人工智慧+”行動的意見》,明確提出到2030年人工智慧全面賦能高品質發展。此外,八部門聯合發文,提出要“超常規”建構領軍人才培養新模式。當然,也要看到,中國AI在“從0到1”的原創突破上仍有差距。要鼓勵弄潮兒心無旁騖試錯深耕,尤須營造更加包容寬鬆的創新環境,糾正科研領域的實用主義傾向。“美國絕對有可能在AI上落後於中國,因為人才在變。”輝達創始人黃仁勳曾如是感慨。AI人才“東流”無須大驚小怪,人才流向改變更不是終點。持續建構創新創業的優質生態圈,讓各類人才的創造活力競相迸發、聰明才智充分湧流,中國必能擁抱更廣闊的星辰大海。 (長安街知事)
DeepSeek-V4引爆中國國產晶片:百萬上下文時代,中國AI算力徹底翻身!
4月24日,DeepSeek(深度求索)正式發佈V4預覽版並開源,以100萬Token超長上下文、雙版本架構、Day 0全量適配中國國產晶片三大殺招,不僅登頂開源模型之巔,更給中國國產AI晶片按下“加速鍵”——一場從“能用”到“好用”、從“適配”到“主導”的算力革命,正式爆發。一、V4有多強?直接對標GPT-4o,性能碾壓前代DeepSeek-V4推出兩大版本,全線標配百萬級上下文(約75萬字),技術全面突破:• V4-Pro(旗艦):1.6T總參、49B啟動,推理、智能體、知識能力開源第一,程式碼評測超越GPT-5.2、逼近Opus 4.6• V4-Flash(普惠):284B總參、13B啟動,速度快、成本極低,API低至0.2元/百萬Token• 核心創新:自研DSA稀疏注意力,長文字算力消耗僅為V3.2的27%,視訊記憶體佔用降至10%二、最重磅:發佈即適配!中國國產晶片首日“全家桶”支援不同於以往“先海外、後中國國產”,V4實現Day 0適配——發佈當天,8家中國國產晶片廠商全量支援:• 華為昇騰:昇騰950PR單卡推理性能達輝達H20的2.87倍,時延低至20ms•寒武紀:基於vLLM開源適配程式碼,雙版本全支援•摩爾線程、海光、壁仞等同步完成深度最佳化這不是簡單相容,而是芯模深度協同:• 低精度匹配:V4的MoE/FP4與昇騰950計算單元天然契合• 核心最佳化:融合算子、多流平行、量化壓縮,效率拉滿• 全流程自主:從訓練到推理徹底擺脫CUDA依賴三、對中國國產晶片:三大質變,徹底改寫生態格局1. 性能逆襲:中國國產晶片第一次“主場領先”過去中國國產晶片“硬體能打、生態拉胯”——頂級模型只適配輝達,中國國產只能追。V4讓昇騰950在頂級模型上性能反超H20,證明:中國國產晶片+中國國產大模型 > 海外組合商用落地徹底站穩腳跟。2. 訂單爆發:產業鏈全面放量,下半年是關鍵• 華為鎖定75萬顆昇騰訂單• 阿里、騰訊、百度等雲廠商數十萬顆級採購• 伺服器、封裝、散熱、液冷全鏈訂單暴漲• 機構判斷:2026下半年是中國國產算力規模化放量拐點3. 生態正循環:從“被動適配”到“主動主導”• V4開源+中國國產優先,吸引全球開發者基於中國算力底座開發• 統一框架(如智源FlagOS)實現“一次開發,多芯部署”• 中國國產AI晶片市佔率已達41%,加速衝擊50%+四、市場炸了:A股算力、晶片全線大漲4月27日,DeepSeek-V4效應引爆市場:• GPU指數+3.91%、半導體裝置+5.68%• 芯源微+17.81%、富創精密+16.03%、多股20cm漲停• 資金共識:AI自主可控=中國國產算力優先五、深遠意義:中國AI真正“站起來”1. 技術自主:大模型+晶片全端自研,打破海外壟斷2. 成本普惠:V4-Flash推理成本僅為GPT-5.5的1/100,AI應用全面普及3. 產業升級:軟硬協同推動晶片架構、工藝、工具鏈全鏈升級4. 全球格局:中國從AI追隨者,變成規則制定者與生態主導者結語:這只是開始DeepSeek-V4不是終點,而是中國國產AI算力黃金時代的起點。當百萬上下文成為標配、當中國國產晶片成為首選、當全端自主成為現實——中國AI,終於迎來屬於自己的主場時刻! (SEMI半導體研究院)